Search CORE

6 research outputs found

Using deep reinforcement learning for online machine translation

Author: Satija Harsh
Publication venue: McGill University
Publication date
Field of study

We present a Deep Reinforcement Learning based approach for the task of real time machine translation. In the traditional machine translation setting, the translator system has to 'wait' till the end of the sentence before 'committing' any translation. However, real-time translators or 'interpreters' have to make a decision at every time step either to wait and gather more information about the context or translate and commit the current information. The goal of interpreters is to reduce the delay for translation without much loss in accuracy. We formulate the problem of online machine translation as a Markov Decision Process and propose a unified framework which combines reinforcement learning techniques with existing neural machine translation systems. A training scheme for learning policies on the transformed task is proposed. We empirically show that the learnt policies can be used to reduce the end to end delay in translation process without drastically dropping the quality. We also show that the policies learnt by our system outperform the monotone and the batch translation policies while maintaining a delay-accuracy trade-off.Nous présentons une approche basée sur l'apprentissage par renforcement profond pour la tâche de traduction automatique en temps réel. Dans le cadre traditionnel de la traduction automatique, le système de traduction doit 'attendre' jusqu'à la fin de la phrase avant de 'valider' toute traduction. Cependant, les traducteurs en temps réel ou les 'interprètes' doivent décider à chaque moment s'ils doivent attendre et recueillir plus d'informations sur le contexte ou traduire et valider l'information disponible actuellement. Le but des interprètes est de réduire le délai de traduction sans perte de précision. Nous formulons le problème de traduction automatique 'simultanée' comme processus de décision markovien et proposons un cadre unifié qui joint des techniques d'apprentissage par renforcement avec des systèmes neuronaux existants de traduction automatique. Un schéma d'entraînement pour les politiques d'apprentissage sur la tâche transformée est proposé. Nous montrons empiriquement que les politiques apprises peuvent être utilisées pour réduire le retard de bout en bout dans le processus de traduction sans pour autant réduire radi- calement la qualité. Nous montrons également que les politiques apprises par notre système surpassent les politiques monotones de traduction et celles de traduction par lots tout en maintenant un compromis entre précision et retard

eScholarship@McGill